Pernahkah Anda pergi ke warung dan melihat ada pembeli yang pesan nasi padang porsi kecil tapi bayarnya pakai uang Rp 500.000? Atau ada tetangga yang gajinya pas-pasan tapi tiba-tiba beli motor cash? Secara masing-masing, tidak ada yang salah. Tapi kalau digabungkan, kombinasi itu terasa tidak wajar — dan itulah inti dari deteksi outlier berbasis copula.
Apa Itu Outlier?
Dalam statistik, outlier adalah data yang “aneh” atau jauh dari kebiasaan umum. Misalnya, di sebuah kampung, rata-rata pengeluaran harian warga adalah Rp 50.000. Kalau ada satu warga yang pengeluarannya Rp 5.000.000 per hari, dia jelas outlier.
Masalahnya, mendeteksi keanehan dari satu variabel saja itu mudah. Yang susah adalah mendeteksi keanehan dari kombinasi beberapa variabel sekaligus.
Contoh Nyata dari Kehidupan Sehari-hari
Bayangkan data warga miskin penerima bantuan sosial. Pemerintah mencatat dua hal: penghasilan bulanan dan pengeluaran listrik. Bisa saja seseorang punya penghasilan Rp 800.000 per bulan — masuk kategori miskin, wajar mendapat bansos. Tagihan listriknya juga Rp 150.000 — tidak ada yang aneh.
Tapi kalau dua data itu digabungkan, muncul pertanyaan: Bagaimana mungkin orang berpenghasilan Rp 800.000 tapi bayar listrik Rp 150.000 setiap bulan, sementara rata-rata warga miskin di kampung yang sama hanya bayar Rp 30.000? Kombinasi inilah yang disebut multivariate outlier — aneh bukan karena satu nilai, tapi karena gabungan nilainya tidak masuk akal.
Contoh lain: ibu rumah tangga yang beli beras 5 kg sebulan (wajar untuk keluarga kecil) tapi juga beli gas elpiji 10 tabung sebulan (tidak wajar untuk keluarga kecil). Masing-masing nilai bisa dimaklumi, tapi kalau digabung, jelas ada sesuatu yang ganjil.
Di Sinilah Copula Bekerja
Copula adalah alat matematika yang membantu kita melihat apakah kombinasi beberapa variabel itu wajar atau tidak. Bukan hanya melihat satu variabel, tapi hubungan antar variabel secara bersamaan.
Cara kerjanya sederhana: setiap variabel diubah ke skala yang sama (0 sampai 1), lalu copula mengukur apakah pola hubungan antar variabel itu masih “normal” atau sudah sangat menyimpang. Kalau menyimpang jauh, data tersebut diberi skor anomali yang tinggi dan ditandai sebagai mencurigakan.
Metode ini sudah dipakai untuk mendeteksi:
- Penerima bansos yang tidak tepat sasaran
- Kecurangan klaim asuransi
- Tagihan BPJS yang tidak wajar
- Transaksi keuangan mencurigakan
Mengapa Ini Penting?
Karena data pemerintah dan lembaga sosial sering tidak sempurna. Ada yang salah input, ada yang sengaja dimanipulasi. Metode copula membantu kita menemukan data yang mencurigakan secara otomatis, sehingga bantuan benar-benar sampai ke orang yang tepat.
Statistik bukan hanya soal angka di buku pelajaran. Statistik adalah alat untuk memastikan keadilan — agar warga yang benar-benar butuh tidak tergeser oleh data yang “aneh”.

